22 research outputs found

    Mining microarray data to predict the histological grade of a breast cancer

    Get PDF
    BACKGROUND: The aim of this study was to develop an original method to extract sets of relevant molecular biomarkers (gene sequences) that can be used for class prediction and can be included as prognostic and predictive tools. MATERIALS AND METHODS: The method is based on sequential patterns used as features for class prediction. We applied it to classify breast cancer tumors according to their histological grade. RESULTS: We obtained very good recall and precision for grades 1 and 3 tumors, but, like other authors, our results were less satisfactory for grade 2 tumors. CONCLUSIONS: We demonstrated the interest of sequential patterns for class prediction of microarrays and we now have the material to use them for prognostic and predictive applications

    Prédiction du grade d'un cancer du sein par la découverte de motifs séquentiels contextuels dans des puces à ADN

    Get PDF
    National audienceLe cancer du sein reste de nos jours un problème de santé majeur et un véritable défi pour les biologistes et les professionnels de santé. Les puces à ADN permettent aujourd'hui d'étudier selon un jour nouveau les problématiques associées à cette maladie. Dans cet article, nous proposons de traiter les données issues des puces à ADN par le biais de l'extraction de motifs séquentiels contextuels (séquences de gènes ordonnés selon leur niveau d'expression associées à un contexte). L'objectif est de proposer une aide au diagnostic du grade d'une tumeur. Notre approche tient à la fois compte de l'information contenue dans les puces à ADN (exprimée par le biais de motifs séquentiels), mais également d'informations additionnelles d'ordre contextuel (e.g., âge du patient, taille de la tumeur, etc.) et qui sont associées aux données de puces à ADN lorsque celles-ci sont publiées en ligne. L'approche proposée a été évaluée sur des données réelles

    Extraction de motifs spatio-temporels à différentes échelles avec gestion de relations spatiales qualitatives

    Get PDF
    ISBN : 978-163266234-7National audienceGeoreferenced databases contain a huge volume of temporal and spatial data. They are notably used in environmental analysis. Several works address the problem of mining those data, but none are able to take into account the richness of the data and especially their spatial and temporal dimensions. In this paper, we focus on the extraction of a new kind of spatiotemporal patterns which consider the relationship between spatial objects and also various geographical scales. We propose an algorithm, STR_PrefixGrowth, which can be applied on a huge amont of data. The proposed method is evaluated on hydrological data collected on the Saône basin during the last 19 years. Our experiments emphasize the contribution of our approach toward the existing methods.Les bases de données géoréférencées contiennent un important volume de données temporelles et spatiales. Elles sont par exemple particulièrement utilisées dans le cadre d'analyses environnementales. Plusieurs méthodes ont été proposées pour l'exploration de telles bases de données, mais aucune ne permet d'exploiter toute la richesse des données, en particulier leurs dimensions spatiales et temporelles. Dans cet article, nous introduisons un nouveau type de motifs spatio-temporels considérant les relations entre objets spatiaux mais aussi les différentes échelles géographiques. Nous proposons un algorithme d'extraction de motifs STR_PrefixGrowth applicable sur un important volume de données. Nous traitons un exemple de données hydrobiologiques collectées sur le bassin de la Saône durant les 19 dernières années. Les expérimentations menées soulignent l'intérêt de notre méthode par rapport aux méthodes existantes

    OrderGeneMiner : Logiciel pour l'extraction et la visualisation de motifs partiellement ordonnés à partir de puces à ADN

    Get PDF
    Démonstration du logiciel @ 13e Conférence Francophone sur l'Extraction et la Gestion des Connaissances (EGC 2013)Le Virus de l'Immunodéficience Humaine (VIH) est actuellement un problème majeur de santé publique. Depuis l'identification du VIH, plus de 20 millions de personnes ont été identifiées. Le VIH continue de ravager les populations dans le monde entier avec 3 millions de nouvelles infections par an. Contrairement au cancer, les approches de biologie intégrative sont toujours rares dans le domaine de la lutte contre le HIV. Dans cet article, nous proposons de contribuer au développement d'une telle stratégie, en présentant un logiciel de fouille de données qui va permettre d'appliquer les concepts de motifs séquentiels et de motifs partiellement ordonnés aux données de puces à ADN. Ce logiciel se focalise sur les besoins des biologistes: 1) permet à l'expert d'intéragir dans le processus d'extraction des motifs; 2) offre une visualisation des motifs extrait sous la forme d'un graphe coloré qui résume un ensemble de motifs séquentiels. Il en résulte une visualisation plus compacte et simple qui facilite l'interprétation des experts

    Co2Vis: A Visual Analytics Tool for Mining Co-Expressed and Co-Regulated Genes Implied in HIV Infections

    Get PDF
    International audienceOne of the key challenges in human health is the identification of disease-causing genes like AIDS (Acquired ImmunoDeficiency Syndrome). Numerous studies have addressed this challenge through gene expression analysis. Due to the amount of data available, processing DNA microarrays in a way that makes biomedical sense is still a major issue.Statistical methods and data mining techniques play a key role in discovering previously unknown knowledge. However, applying such techniques in this context is difficult because the number of measurement points (i.e., gene expression levels) is much higher than the number of samples resulting in the well-known curse of dimensionality problem also called the high feature-to-sample ratio.We propose a combination of data mining and visual analytics methods to identify and render groups of genes implied in HIV infections and sharing common behaviors

    HydroQual: Visual analysis of river water quality

    Get PDF
    International audienceEconomic development based on industrialization, intensive agriculture expansion and population growth places greater pressure on water resources through increased water abstraction and water quality degradation [40]. River pollution is now a visible issue, with emblematic ecological disasters following industrial accidents such as the pollution of the Rhine river in 1986 [31]. River water quality is a pivotal public health and environmental issue that has prompted governments to plan initiatives for preserving or restoring aquatic ecosystems and water resources [56]. Water managers require operational tools to help interpret the complex range of information available on river water quality functioning. Tools based on statistical approaches often fail to resolve some tasks due to the sparse nature of the data. Here we describe HydroQual, a tool to facilitate visual analysis of river water quality. This tool combines spatiotem-poral data mining and visualization techniques to perform tasks defined by water experts. We illustrate the approach with a case study that illustrates how the tool helps experts analyze water quality. We also perform a qualitative evaluation with these experts

    Un système décisionnel pour l’analyse de la qualité des eaux de rivières

    Get PDF
    National audienceThis article describes a decisional system developed to allow the analysis of data about hydro-ecosystem functioning; there are numerous and various data, from several sources. The implemented system includes an integrated database, a datawarehouse for exploring data dimensions, and data mining tools for answering hydroecologists’ questions.Cet article décrit un système décisionnel développé pour permettre l’analyse des données concernant le fonctionnement des hydro-écosystèmes ; ces données sont nombreuses, diverses et issues de sources variées. Le système mis en place comporte une base de données intégrée, un entrepôt permettant l’exploration des dimensions associées aux données, et des outils de fouille permettant de répondre aux questions des hydro-écologues

    Recherche de motifs partiellement ordonnés clos discriminants pour caractériser l'état des milieux aquatiques

    No full text
    Atelier AnaEnv "ANAlyse de données ENVironnementales" associé à la conférence RFIA, Rouen, 1er juillet 2014This paper presents a data mining process implemented to extract original knowledge from hydro-ecological data. The approach is based on closed partially ordered patterns used as discriminant features to link physico-chemistry with biology in river sampling sites. For each bio-indicator quality value, we obtain a set of significant discriminant features. We use them to identify the impact of physico-chemical characteristics on the biological dimensions. The approach has been experimented on a dataset of several thousands river sites.Cet article présente un processus de fouille de données mis en oeuvre pour extraire des connaissances d'un jeu de don-nées concernant l'hydro-écologie des cours d'eau. L'approche s'appuie sur la recherche de motifs clos partiellement ordonnés, utilisés comme éléments discriminants pour relier les paramètres physico-chimiques et biologiques mesurés sur des stations de rivières. Pour chaque valeur d'un indice biologique, sont mis ainsi en évidence des séquences temporelles de valeurs de paramètres physico-chimiques ayant un impact sur la biologie. L'approche est mise en oeuvre sur un jeu de données regroupant plusieurs milliers de stations de rivières

    Recherche de motifs partiellement ordonnés clos discriminants pour caractériser l'état des milieux aquatiques

    Get PDF
    Atelier AnaEnv "ANAlyse de données ENVironnementales" associé à la conférence RFIA, Rouen, 1er juillet 2014This paper presents a data mining process implemented to extract original knowledge from hydro-ecological data. The approach is based on closed partially ordered patterns used as discriminant features to link physico-chemistry with biology in river sampling sites. For each bio-indicator quality value, we obtain a set of significant discriminant features. We use them to identify the impact of physico-chemical characteristics on the biological dimensions. The approach has been experimented on a dataset of several thousands river sites.Cet article présente un processus de fouille de données mis en oeuvre pour extraire des connaissances d'un jeu de don-nées concernant l'hydro-écologie des cours d'eau. L'approche s'appuie sur la recherche de motifs clos partiellement ordonnés, utilisés comme éléments discriminants pour relier les paramètres physico-chimiques et biologiques mesurés sur des stations de rivières. Pour chaque valeur d'un indice biologique, sont mis ainsi en évidence des séquences temporelles de valeurs de paramètres physico-chimiques ayant un impact sur la biologie. L'approche est mise en oeuvre sur un jeu de données regroupant plusieurs milliers de stations de rivières

    OrderSpan: Mining Closed Partially Ordered Patterns

    No full text
    International audienceDue to the complexity of the task, partially ordered pattern mining of sequential data has not been subject to much study, despite its usefulness. This paper investigates this data mining challenge by describing OrderSpan, a new algorithm that extracts such patterns from sequential databases and overcomes some of the drawbacks of existing methods. Our work consists in providing a simple and flexible framework to directly mine complex sequences of itemsets, by combining well-known properties on prefixes and suffixes. Experiments were performed on different real datasets to show the benefit of partially ordered patterns
    corecore